Cramér’s V (克莱姆V系数) - 是什么以及为什么?

By Ruben Geert van den Berg under Statistics A-Z & Correlation

Cramér’s V (克莱姆V系数) 是一个介于 0 和 1 之间的数字,用于衡量两个类别变量之间关联的强度。如果我们想知道两个类别变量是否相关,我们的第一个选择是 卡方独立性检验 (Chi-Square Independence Test)。 接近于零的 p 值 (p-value) 意味着我们的变量在某个总体中完全 相关的可能性非常低。 但是,这并不意味着变量之间 强烈相关 ; 在大样本量中即使是微弱的关联也可能导致 p = 0.000。

Cramér’s V (克莱姆V系数) - 公式

Cramér’s V (克莱姆V系数) 是一种可以指示关联强度的度量,定义为:

\[\phi_c = \sqrt{\frac{\chi^2}{N(k - 1)}}\]

其中:

  • \(_c\) 表示 Cramér’s V (克莱姆V系数); \(\) 是希腊字母“phi”,指的是 “phi coefficient (Phi系数)”,它是 Cramér’s V (克莱姆V系数) 的一个特例,我们稍后会讨论。
  • \(^2\) 是来自上述检验的 Pearson 卡方统计量;
  • \(N\) 是测试中涉及的样本量;
  • \(k\) 是两个变量中类别数量较少的一个。

Cramér’s V (克莱姆V系数) - 例子

一位科学家想知道音乐偏好是否与专业相关。 他询问了 200 名学生,得到了如下所示的列联表。

Cramers V Crosstab Counts

这些原始频率是我们进行各种计算所需要的,但它们并没有显示太多的模式。 如果我们检查行百分比而不是原始频率,则更容易看到变量之间的关联(如果有)。 如果我们将百分比可视化为堆积条形图,事情会变得更加清楚。

Cramér’s V (克莱姆V系数) - 独立性

在我们的第一个例子中,变量是完全独立的:\(^2\) = 0。根据我们的 公式 ,卡方 = 0 意味着 Cramér’s V (克莱姆V系数) = 0。 这意味着音乐偏好“不能说明”专业。 相关的表格和图表清楚地表明了这一点。

Cramers V Crosstab Unassociated Percentages Cramers V Unassociated Variables Chart

请注意,每个音乐偏好组中的专业分布是相同的。 如果我们想预测某人的专业,了解他的音乐偏好一点帮助都没有。 我们最好的猜测 始终 是法律或“其他”。

Cramér’s V (克莱姆V系数) - 中等关联

第二个 200 名学生的样本显示出不同的模式。 行百分比如下所示。

Cramers V Crosstab Medium Association

该表显示了音乐偏好和专业之间存在相当大的关联:音乐偏好组的专业分布不同。 例如,在所有喜欢流行音乐的学生中,有 60% 的人学习心理学。 那些喜欢古典音乐的人大多学习法律。 下图可视化了我们的表格。

Cramers V Medium Association Chart

请注意,音乐偏好在很大程度上说明了专业:了解前者对预测后者有很大帮助。 对于这些数据:

由此得出:

\[\phi_c = \sqrt{\frac{113}{200(3)}} = 0.43.\]

这相当可观,但不是非常高,因为 Cramér’s V (克莱姆V系数) 的最大值为 1。

Cramér’s V (克莱姆V系数) - 完美关联

在第三个(也是最后一个)学生样本中,音乐偏好和专业是完全相关的。 下表和图显示了行百分比。

Cramers V Crosstab Perfect Association Cramers V Perfect Association Chart

如果我们知道一个学生的音乐偏好,我们就能确定他的专业。 这意味着我们的变量是完全相关的。 但是,请注意,反过来是不成立的:我们无法从某人的专业中确定他的音乐偏好,但这不是完美关联所必需的:\(^2\) = 600 所以

\[\phi_c = \sqrt{\frac{600}{200(3)}} = 1,\]

这是 Cramér’s V (克莱姆V系数) 的最高可能值。

替代测量方法

Cramér’s V (克莱姆V系数) - SPSS

SPSS 中,可以从 A nalyze (分析) SPSS Menu Arrow D escriptive Statistics (描述统计) SPSS Menu Arrow C rosstabs (交叉表) 获得 Cramér’s V (克莱姆V系数)。 接下来,按照如下所示填写对话框。

Cramers V from SPSS Crosstabs

警告:对于大于 2x2 的表格,SPSS 会返回 phi 的无意义值,而不会发出任何警告或错误。 这些值通常 > 1,这对于 Pearson 相关是不可能的。 奇怪的是,如果不获得这些疯狂的 phi 值,就无法请求 Cramér’s V (克莱姆V系数)。

最后说明

Cramér’s V (克莱姆V系数) 也被称为 Cramér’s phi (coefficient) (克莱姆phi系数)。 它是上述 phi coefficient (Phi系数) 的扩展,适用于大于 2x2 的表格,因此其表示为 \(_c\)。 有人认为它被“V”取代是因为旧计算机无法打印字母 \(\)。

感谢您的阅读。

参考文献

  1. Van den Brink, W.P. & Koele, P. (2002). Statistiek, deel 3 [Statistics, part 3]. Amsterdam: Boom.
  2. Field, A. (2013). Discovering Statistics with IBM SPSS Newbury Park, CA: Sage.
  3. Howell, D.C. (2002). Statistical Methods for Psychology (5th ed.). Pacific Grove CA: Duxbury.
  4. Slotboom, A. (1987). Statistiek in woorden [Statistics in words]. Groningen: Wolters-Noordhoff.
  5. Sheskin, D. (2011). Handbook of Parametric and Nonparametric Statistical Procedures . Boca Raton, FL: Chapman & Hall/CRC.